Naive Bayes হল একটি সহজ এবং কার্যকর মেশিন লার্নিং অ্যালগরিদম, যা বিশেষ করে ক্লাসিফিকেশন সমস্যা সমাধানে ব্যবহৃত হয়। এটি একটি প্রবণতা ভিত্তিক মডেল, যেখানে প্রতিটি ফিচারের মানের উপর নির্ভর করে একটি ক্লাসের সম্ভাবনা হিসাব করা হয়। Naive Bayes এর বিভিন্ন ধরনের সংস্করণ রয়েছে, যার মধ্যে Gaussian Naive Bayes এবং Multinomial Naive Bayes দুটি জনপ্রিয় মডেল। এই দুটি মডেল সাধারণত ব্যবহৃত হয় বিভিন্ন ধরনের ডেটা এবং সমস্যার জন্য।
এগুলো উভয়ই Naive Bayes এর সংশোধিত সংস্করণ, তবে তাদের মধ্যে ব্যবহৃত সম্ভাব্যতা মডেল এবং অ্যাসাম্পশন আলাদা।
Gaussian Naive Bayes (গাউসিয়ান নায়িভ বেইজ)
Gaussian Naive Bayes (GNB) হল Naive Bayes এর একটি বিশেষ সংস্করণ, যা যখন ফিচারের মান গ continuous (নিরবচ্ছিন্ন) হয়, তখন ব্যবহৃত হয়। এটি গাউসিয়ান ডিস্ট্রিবিউশন বা Normal Distribution (গড় এবং বিক্ষিপ্ততা) এর ধারণা ব্যবহার করে, যেখানে প্রতিটি ফিচারের জন্য গড় এবং বিক্ষিপ্ততা হিসাব করা হয়।
ব্যবহার:
এটি সাধারণত বৈশ্বিক ডেটা (যেমন, ডেটা পয়েন্ট যেখানে প্রতিটি ফিচারের মান ধারাবাহিক হয়) শ্রেণিবদ্ধ করার জন্য ব্যবহৃত হয়।
গাণিতিক ভিত্তি:
ফিচারের জন্য গাউসিয়ান ডিস্ট্রিবিউশন ব্যবহার করা হয়। গাউসিয়ান ডিস্ট্রিবিউশনের ফর্মুলা:
এখানে,
- হচ্ছে ফিচারের মান,
- হচ্ছে গড় (mean),
- হচ্ছে বিক্ষিপ্ততা (variance),
- হচ্ছে একটি ক্লাস এর জন্য এর সম্ভাবনা।
উদাহরণ:
ধরা যাক, আমাদের কাছে দুটি ফিচার (Age, Income) রয়েছে এবং আমরা দুটি ক্লাস (Spam, Not Spam) শ্রেণীবদ্ধ করতে চাই। গাউসিয়ান নায়িভ বেইজ মডেলটি এই ফিচারের জন্য গড় এবং বিক্ষিপ্ততা নির্ধারণ করবে এবং তারপর মডেলটি ব্যবহার করে প্রতিটি নতুন ইনপুটের জন্য স্প্যাম বা নন-স্প্যাম ক্লাস নির্ধারণ করবে।
Multinomial Naive Bayes (মাল্টিনোমিয়াল নায়িভ বেইজ)
Multinomial Naive Bayes (MNB) হল Naive Bayes এর আরেকটি সংস্করণ যা ডিসক্রিট (discrete) ডেটা বা কাউন্ট ডেটা (যেমন, শব্দের উপস্থিতি বা টোকেন কাউন্ট) শ্রেণিবদ্ধ করার জন্য ব্যবহৃত হয়। এটি Multinomial Distribution এর ওপর ভিত্তি করে কাজ করে, যা সাধারণত টেক্সট ক্লাসিফিকেশন (যেমন স্প্যাম ইমেইল শনাক্তকরণ) এবং ডকুমেন্ট ক্যাটেগরাইজেশন এর ক্ষেত্রে ব্যবহৃত হয়।
ব্যবহার:
এটি বিশেষভাবে ব্যবহার করা হয় যখন প্রতিটি ফিচারের মান একটি নির্দিষ্ট সংখ্যা বা সংখ্যা গণনা (count) হিসেবে প্রকাশ করা হয়, যেমন একটি নির্দিষ্ট শ্রেণীতে শব্দের সংখ্যা।
গাণিতিক ভিত্তি:
Multinomial Naive Bayes মূলত Multinomial Distribution ব্যবহার করে, যা সাধারণত শব্দের উপস্থিতি (word occurrence) বা টোকেনের সংখ্যা এর জন্য ব্যবহৃত হয়। এটি একটি নির্দিষ্ট শ্রেণীর জন্য সম্ভাবনা হিসাব করতে সাহায্য করে, যেমন:
এখানে,
- হচ্ছে ফিচারের মান,
- হচ্ছে ক্লাস এর জন্য প্রতিটি ফিচারের সম্ভাবনা,
- হচ্ছে ক্লাসের প্রাথমিক সম্ভাবনা (Prior Probability)।
উদাহরণ:
একটি স্প্যাম ইমেইল ক্লাসিফায়ার তৈরি করার সময়, Multinomial Naive Bayes মডেলটি ইমেইলের প্রতিটি শব্দের গণনা করে এবং ক্লাস (স্প্যাম বা নন-স্প্যাম) নির্ধারণ করে।
Gaussian Naive Bayes এবং Multinomial Naive Bayes এর মধ্যে পার্থক্য
| বৈশিষ্ট্য | Gaussian Naive Bayes | Multinomial Naive Bayes |
|---|---|---|
| ডেটা প্রকার | ধারাবাহিক বা নিরবচ্ছিন্ন ডেটা (Continuous data) | ডিসক্রিট বা গাণিতিক ডেটা (Count data) |
| ব্যবহার | সাধারণত গাণিতিক বা বৈশ্বিক ডেটাতে ব্যবহৃত | শব্দের সংখ্যা বা টোকেনের উপস্থিতি (text data) |
| ফিচারের ধরন | গাউসিয়ান ডিস্ট্রিবিউশন (Gaussian Distribution) | মাল্টিনোমিয়াল ডিস্ট্রিবিউশন (Multinomial Distribution) |
| প্রধান অ্যাসাম্পশন | ফিচারগুলি গাউসিয়ান ডিস্ট্রিবিউশনে বিতরণ হয় | ফিচারগুলি মাল্টিনোমিয়াল ডিস্ট্রিবিউশনে বিতরণ হয় |
| প্রধান ব্যবহার ক্ষেত্র | গাণিতিক ডেটা, সাধারন ক্লাসিফিকেশন কাজ | টেক্সট ক্লাসিফিকেশন, স্প্যাম ডিটেকশন |
সারাংশ
- Gaussian Naive Bayes ধারাবাহিক (continuous) ফিচারের জন্য ব্যবহৃত হয়, যেখানে গাউসিয়ান ডিস্ট্রিবিউশন (Gaussian Distribution) ব্যবহৃত হয়।
- Multinomial Naive Bayes ডিসক্রিট ডেটা বা কাউন্ট ডেটার জন্য ব্যবহৃত হয়, যেখানে মাল্টিনোমিয়াল ডিস্ট্রিবিউশন (Multinomial Distribution) ব্যবহার করা হয়।
এগুলি Naive Bayes মডেলের দুটি আলাদা প্রকার, যেগুলি বিভিন্ন ধরনের ডেটা এবং সমস্যার জন্য প্রযোজ্য। Gaussian Naive Bayes সাধারণত গাণিতিক ডেটার জন্য ব্যবহৃত হয়, যখন Multinomial Naive Bayes টেক্সট ডেটা বা কাউন্ট ডেটার জন্য বেশি কার্যকরী।
Read more